1
Le paysage des systèmes génératifs avancés
PolyU COMP5511Lesson 11
00:00

Le paysage des systèmes génératifs avancés a évolué des modèles isolés et monolithiques vers un écosystème multicouche défini par systèmes d'IA composés. Ce changement s'éloigne de la prédiction probabiliste simple des jetons vers des systèmes qui orchestreront des modèles fondamentaux (FMs), des plugins modulaires et une synthèse multimodale.

Infrastructure informatique / CloudLLMsDiffusionAudio / CodeCouche d'orchestration et agente

Taxonomie de la pile générative

  • Couche d'infrastructure: La structure matérielle (GPU/TPU) et les services cloud qui fournissent le calcul massif requis pour l'entraînement et l'inférence à haute vitesse.
  • Couche des modèles: Les modèles fondamentaux (FMs) comme GPT-4, Llama 3 et Stable Diffusion qui servent de moteurs spécialisés pour différentes modalités.
  • Couche d'orchestration: Des cadres qui gèrent la logique, le flux de données et la récupération, faisant passer les modèles des poids "figés" vers des systèmes dotés de Connaissance contextuelle en temps réel.

Convergence des modalités

La tendance technique se concentre sur l'unification des architectures—principalement les modèles Transformer et les modèles de diffusion—permettant un espace latent partagé. Cela permet une interface unique où le texte, l'image et la vidéo sont manipulés comme un flux continu d'information, représenté mathématiquement comme une application entre des variétés latentes disparates $M_{text} \leftrightarrow M_{visual}$.

Évolution structurelle
Nous passons des modèles "à livre fermé" qui ne dépendent que des paramètres des données d'entraînement $\theta$, aux systèmes "à livre ouvert" qui utilisent l'état de l'environnement externe $E$ pour résoudre des tâches complexes de raisonnement via $P(y|x, E)$.
Implémentation Python